Average word length | # of sentences | Source |
---|---|---|
8.40 | 72 | http://dty.wikipedia.org/wiki/नगरकोट |
13.27 | 10 | http://dty.wikipedia.org/wiki/डोटी_बोगटान |
13.47 | 11 | http://dty.wikipedia.org/wiki/केदारनाथ |
13.61 | 24 | http://dty.wikipedia.org/wiki/वीरगाथा |
13.63 | 25 | http://dty.wikipedia.org/wiki/गर्बादरवार |
13.65 | 17 | http://dty.wikipedia.org/wiki/जुका |
13.68 | 14 | http://dty.wikipedia.org/wiki/केला |
13.80 | 22 | http://dty.wikipedia.org/wiki/शिलोङ |
13.88 | 11 | http://dty.wikipedia.org/wiki/तेहरान |
14.05 | 11 | http://dty.wikipedia.org/wiki/चितवन_राष्ट्रिय_निकुञ्ज |
14.11 | 17 | http://dty.wikipedia.org/wiki/तृषा_(अभिनेत्री) |
14.15 | 14 | http://dty.wikipedia.org/wiki/लखनऊ |
14.17 | 22 | http://dty.wikipedia.org/wiki/भीमसेन_थापा |
14.18 | 12 | http://dty.wikipedia.org/wiki/रायपुर |
14.20 | 12 | http://dty.wikipedia.org/wiki/गोदावरी_नगरपालिका(कैलाली) |
14.30 | 22 | http://dty.wikipedia.org/wiki/होःरी |
14.36 | 14 | http://dty.wikipedia.org/wiki/लस_एन्जलस |
14.37 | 23 | http://dty.wikipedia.org/wiki/खडकबहादुर_सिंह |
14.50 | 10 | http://dty.wikipedia.org/wiki/लुपुड_गाँउ |
14.54 | 13 | http://dty.wikipedia.org/wiki/फेवा_ताल |
14.62 | 18 | http://dty.wikipedia.org/wiki/भूमध्य_सागर |
14.63 | 22 | http://dty.wikipedia.org/wiki/रारा_ताल |
14.67 | 26 | http://dty.wikipedia.org/wiki/डोटेली_भैलो |
14.73 | 26 | http://dty.wikipedia.org/wiki/अजा_एकादशी |
14.78 | 14 | http://dty.wikipedia.org/wiki/नैनीताल |
14.79 | 13 | http://dty.wikipedia.org/wiki/मिसिसिपी_नदी |
14.79 | 33 | http://dty.wikipedia.org/wiki/रैका_राजवंश |
14.81 | 44 | http://dty.wikipedia.org/wiki/इटानगर |
14.86 | 10 | http://dty.wikipedia.org/wiki/गांधीनगर |
14.90 | 77 | http://dty.wikipedia.org/wiki/गान्तोक |
Average word length | # of sentences | Source |
---|---|---|
19.72 | 11 | http://dty.wikipedia.org/wiki/गणेशमान_सिंह |
19.46 | 48 | http://dty.wikipedia.org/wiki/गोसाइँकुण्ड |
19.31 | 12 | http://dty.wikipedia.org/wiki/क्षेत्री |
19.23 | 18 | http://dty.wikipedia.org/wiki/सूर्यबहादुर_थापा |
19.00 | 17 | http://dty.wikipedia.org/wiki/मनमोहन_अधिकारी |
18.93 | 17 | http://dty.wikipedia.org/wiki/क्षयरोग |
18.86 | 12 | http://dty.wikipedia.org/wiki/नेपाल_भाषा |
18.84 | 15 | http://dty.wikipedia.org/wiki/कृष्णप्रसाद_भट्टराई |
18.72 | 38 | http://dty.wikipedia.org/wiki/गायत्री_मन्त्र |
18.71 | 12 | http://dty.wikipedia.org/wiki/आरजु_राणा_देउवा |
18.71 | 20 | http://dty.wikipedia.org/wiki/पाटन_दरवार_क्षेत्र |
18.53 | 15 | http://dty.wikipedia.org/wiki/ओनसरी_घर्तिमगर |
18.35 | 13 | http://dty.wikipedia.org/wiki/केन्या |
18.35 | 26 | http://dty.wikipedia.org/wiki/शेरबहादुर_देउवा |
18.23 | 12 | http://dty.wikipedia.org/wiki/गोवा |
18.18 | 12 | http://dty.wikipedia.org/wiki/लामपुच्छ्रे_तारा |
18.18 | 27 | http://dty.wikipedia.org/wiki/तमिलनाडु |
18.15 | 12 | http://dty.wikipedia.org/wiki/जानकी_मन्दिर |
18.12 | 23 | http://dty.wikipedia.org/wiki/चितवन_उपत्यका |
18.12 | 14 | http://dty.wikipedia.org/wiki/कैलाली_बहुमुखी_क्याम्पस |
18.11 | 45 | http://dty.wikipedia.org/wiki/नारायणहिटी_दरवार_संग्रहालय |
18.06 | 10 | http://dty.wikipedia.org/wiki/बिज्ञान |
18.03 | 14 | http://dty.wikipedia.org/wiki/सिंहदरवार |
17.99 | 15 | http://dty.wikipedia.org/wiki/रानीमहल |
17.98 | 16 | http://dty.wikipedia.org/wiki/सेन्ट_पिटर्सबर्ग |
17.97 | 10 | http://dty.wikipedia.org/wiki/राष्ट्रिय_धान_दिवस |
17.95 | 11 | http://dty.wikipedia.org/wiki/नेपाली_साहित्य |
17.94 | 13 | http://dty.wikipedia.org/wiki/खप्तड_राष्ट्रिय_निकुञ्ज |
17.93 | 22 | http://dty.wikipedia.org/wiki/कुष्ठरोग |
17.91 | 12 | http://dty.wikipedia.org/wiki/चितवन_जिल्ला |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words